第一節：資料轉換概念(1)

資料轉換的重點只有一個，那就是先想好目標格式，接著利用迴圈功能一格一格把目標格式的資料填滿

– 當然，之後也許你會看到一些函數能加速整個流程，但在面對小筆資料時熟練的使用迴圈能幫忙我們迅速做完資料轉換

現在我們遇到了上一份資料的加強版，請按這裡下載它

– 這份資料是從三軍總醫院生化檢驗值系統截取某10位病患在這段期間內所測得之各式生化值

dat = read.csv("data3_3.csv", header = TRUE, fileEncoding = 'CP950')
head(dat, 10)

##    PATNUMBER          COLLECTIONDATE      TESTNAME RESVALUE
## 1       2185 2011/12/12 上午 8:09:00    Creatinine      7.0
## 2       2185 2011/12/12 上午 8:09:00 Total Calcium      7.1
## 3       2185 2011/12/12 上午 8:09:00            Na    137.0
## 4       2185 2011/12/12 上午 8:09:00            IP      7.9
## 5        691 2011/12/12 下午 6:32:00    Creatinine      3.1
## 6       2185 2011/12/29 上午 6:19:00    Creatinine      7.2
## 7       2185 2011/12/29 上午 6:19:00            Na    136.0
## 8        691 2011/12/19 上午 4:38:00    Creatinine      8.0
## 9        691 2011/12/19 上午 4:38:00            Na    137.0
## 10      2185 2011/12/19 上午 8:47:00    Creatinine      8.1

我們希望能把資料轉換成這樣的格式

##      PATNUMBER COLLECTIONDATE            Albumin Albumin body fluid AST
## [1,] "175"     "2011/10/1 上午 8:24:00"  NA      NA                 NA 
## [2,] "175"     "2011/10/5 下午 4:46:00"  NA      NA                 NA 
## [3,] "175"     "2011/10/6 上午 9:01:00"  NA      NA                 NA 
## [4,] "175"     "2011/10/8 上午 6:42:00"  NA      NA                 NA 
## [5,] "175"     "2011/11/10 上午 9:01:00" NA      NA                 NA 
## [6,] "175"     "2011/11/10 下午 1:25:00" NA      NA                 NA 
##      BUN BUN Fluid Cholesterol Fluid Creatinine Creatinine Fluid GLU(AC)
## [1,] NA  NA        NA                "3.7"      NA               NA     
## [2,] NA  NA        NA                "3.2"      NA               NA     
## [3,] NA  NA        NA                NA         NA               NA     
## [4,] NA  NA        NA                "3.4"      NA               NA     
## [5,] NA  NA        NA                NA         NA               NA     
## [6,] NA  NA        NA                NA         NA               NA     
##      HDL-Cholesterol IP    K  LDL-Cholesterol Na    Total Calcium
## [1,] NA              "4.3" NA NA              "138" "7.3"        
## [2,] NA              NA    NA NA              "139" NA           
## [3,] NA              "4.5" NA NA              NA    "7.8"        
## [4,] NA              NA    NA NA              NA    NA           
## [5,] NA              "4.5" NA NA              NA    "7.3"        
## [6,] NA              NA    NA NA              NA    NA           
##      Total Cholesterol Triglyceride Triglycerol Fluid Uric Acid
## [1,] NA                NA           NA                NA       
## [2,] NA                NA           NA                NA       
## [3,] "342"             "335"        NA                NA       
## [4,] NA                NA           NA                NA       
## [5,] "342"             "326"        NA                NA       
## [6,] NA                NA           NA                NA       
##      urine Calcium urine Phosphorus urine Potassium urine Sodium
## [1,] NA            NA               NA              NA          
## [2,] NA            NA               NA              NA          
## [3,] NA            NA               NA              NA          
## [4,] NA            NA               NA              NA          
## [5,] NA            NA               NA              NA          
## [6,] "0.6"         "28.3"           "39.1"          "48"        
##      urine Uric Acid
## [1,] NA             
## [2,] NA             
## [3,] NA             
## [4,] NA             
## [5,] NA             
## [6,] NA

一樣，請各位先構思一下轉換流程

第一節：資料轉換概念(2)

現在這筆資料在轉換時有2個維度，分別是「個案」及「測量時間」，我們在最開始規畫的時候要先把東西盡可能拆離成小部分，最後再用迴圈功能一口氣全部做完

– 一樣，先取得這份資料的基本資訊

levels.TESTNAME = levels(dat[,3])
levels.TESTNAME

##  [1] "Albumin"            "Albumin body fluid" "AST"               
##  [4] "BUN"                "BUN Fluid"          "Cholesterol Fluid" 
##  [7] "Creatinine"         "Creatinine Fluid"   "GLU(AC)"           
## [10] "HDL-Cholesterol"    "IP"                 "K"                 
## [13] "LDL-Cholesterol"    "Na"                 "Total Calcium"     
## [16] "Total Cholesterol"  "Triglyceride"       "Triglycerol Fluid" 
## [19] "Uric Acid"          "urine Calcium"      "urine Phosphorus"  
## [22] "urine Potassium"    "urine Sodium"       "urine Uric Acid"

n.TESTNAME = length(levels.TESTNAME)
n.TESTNAME

## [1] 24

levels.PATNUMBER = levels(as.factor(dat[,1]))
levels.PATNUMBER

##  [1] "175"  "356"  "691"  "1332" "1350" "1654" "1826" "2074" "2154" "2185"

n.PATNUMBER = length(levels.PATNUMBER)
n.PATNUMBER

## [1] 10

第一節：資料轉換概念(3)

我們只先做一個個案，之後再想辦法利用迴圈把它全部都做完就好

– 在寫迴圈時，我習慣先在起頭令迴圈變數為1，如果這段以後能執行，那應該整個迴圈都不會有問題

我們先把個案1的資料先切割出來

i = 1
subdat = dat[dat[,1]==levels.PATNUMBER[i],]

接著，我們再取得subdat中的一些資訊，主要就是他總共測了幾次

levels.COLLECTIONDATE = levels(subdat[,2])
n.COLLECTIONDATE = length(levels.COLLECTIONDATE)
n.COLLECTIONDATE

## [1] 1532

有沒有發現他好像測量太多次了？這是因為我們將檔案切割成subdat時，第二欄的因子向量仍然記得他以前有多少個類別，因此我們要先把它的記憶洗掉。洗掉的方法有很多種，如先轉換成文字向量，再轉換回因子向量

subdat[,2] = as.factor(as.character(subdat[,2]))
levels.COLLECTIONDATE = levels(subdat[,2])
n.COLLECTIONDATE = length(levels.COLLECTIONDATE)
n.COLLECTIONDATE

## [1] 132

第一節：資料轉換概念(4)

接著，我們先建立一個矩陣讓我們填資料

– 第一欄填ID，第二欄填上這個人所有測量的時間點

submatrix = matrix(NA, nrow = n.COLLECTIONDATE, ncol = n.TESTNAME+2)
colnames(submatrix) = c("PATNUMBER", "COLLECTIONDATE", levels.TESTNAME)

submatrix[,1] = levels.PATNUMBER[i]
submatrix[,2] = levels.COLLECTIONDATE

head(submatrix)

##      PATNUMBER COLLECTIONDATE            Albumin Albumin body fluid AST
## [1,] "175"     "2011/10/1 上午 8:24:00"  NA      NA                 NA 
## [2,] "175"     "2011/10/5 下午 4:46:00"  NA      NA                 NA 
## [3,] "175"     "2011/10/6 上午 9:01:00"  NA      NA                 NA 
## [4,] "175"     "2011/10/8 上午 6:42:00"  NA      NA                 NA 
## [5,] "175"     "2011/11/10 上午 9:01:00" NA      NA                 NA 
## [6,] "175"     "2011/11/10 下午 1:25:00" NA      NA                 NA 
##      BUN BUN Fluid Cholesterol Fluid Creatinine Creatinine Fluid GLU(AC)
## [1,] NA  NA        NA                NA         NA               NA     
## [2,] NA  NA        NA                NA         NA               NA     
## [3,] NA  NA        NA                NA         NA               NA     
## [4,] NA  NA        NA                NA         NA               NA     
## [5,] NA  NA        NA                NA         NA               NA     
## [6,] NA  NA        NA                NA         NA               NA     
##      HDL-Cholesterol IP K  LDL-Cholesterol Na Total Calcium
## [1,] NA              NA NA NA              NA NA           
## [2,] NA              NA NA NA              NA NA           
## [3,] NA              NA NA NA              NA NA           
## [4,] NA              NA NA NA              NA NA           
## [5,] NA              NA NA NA              NA NA           
## [6,] NA              NA NA NA              NA NA           
##      Total Cholesterol Triglyceride Triglycerol Fluid Uric Acid
## [1,] NA                NA           NA                NA       
## [2,] NA                NA           NA                NA       
## [3,] NA                NA           NA                NA       
## [4,] NA                NA           NA                NA       
## [5,] NA                NA           NA                NA       
## [6,] NA                NA           NA                NA       
##      urine Calcium urine Phosphorus urine Potassium urine Sodium
## [1,] NA            NA               NA              NA          
## [2,] NA            NA               NA              NA          
## [3,] NA            NA               NA              NA          
## [4,] NA            NA               NA              NA          
## [5,] NA            NA               NA              NA          
## [6,] NA            NA               NA              NA          
##      urine Uric Acid
## [1,] NA             
## [2,] NA             
## [3,] NA             
## [4,] NA             
## [5,] NA             
## [6,] NA

接著，我們開始能一個時間點一個時間點分析了，我們能把subdat在切割出更細的subsubdat

– 同樣的，我們先看第一個時間點，注意迴圈變數不要重複，所以剛剛設i，這次我們設j

j = 1
subsubdat = subdat[subdat[,2]==levels.COLLECTIONDATE[j],]
subsubdat

##      PATNUMBER         COLLECTIONDATE      TESTNAME RESVALUE
## 3993       175 2011/10/1 上午 8:24:00            IP      4.3
## 3994       175 2011/10/1 上午 8:24:00 Total Calcium      7.3
## 3995       175 2011/10/1 上午 8:24:00    Creatinine      3.7
## 3996       175 2011/10/1 上午 8:24:00            Na    138.0

第一節：資料轉換概念(5)

我們需要這份小資料中每列都執行下列的事項

找出這列是描述哪個生化值
找出在submatrix中這個生化值的位置
把value填入那個位置

同樣，我們可以再開一個迴圈執行這個部分，這次這個迴圈的迴圈變數命為k

– 函數「which()」可以幫我們找位置

k = 1
NAME = subsubdat[k,3]
NAME

## [1] IP
## 24 Levels: Albumin Albumin body fluid AST BUN ... urine Uric Acid

position = which(NAME == levels.TESTNAME) + 2 
position

## [1] 13

submatrix[j, position] = subsubdat[k,4]
head(submatrix)

##      PATNUMBER COLLECTIONDATE            Albumin Albumin body fluid AST
## [1,] "175"     "2011/10/1 上午 8:24:00"  NA      NA                 NA 
## [2,] "175"     "2011/10/5 下午 4:46:00"  NA      NA                 NA 
## [3,] "175"     "2011/10/6 上午 9:01:00"  NA      NA                 NA 
## [4,] "175"     "2011/10/8 上午 6:42:00"  NA      NA                 NA 
## [5,] "175"     "2011/11/10 上午 9:01:00" NA      NA                 NA 
## [6,] "175"     "2011/11/10 下午 1:25:00" NA      NA                 NA 
##      BUN BUN Fluid Cholesterol Fluid Creatinine Creatinine Fluid GLU(AC)
## [1,] NA  NA        NA                NA         NA               NA     
## [2,] NA  NA        NA                NA         NA               NA     
## [3,] NA  NA        NA                NA         NA               NA     
## [4,] NA  NA        NA                NA         NA               NA     
## [5,] NA  NA        NA                NA         NA               NA     
## [6,] NA  NA        NA                NA         NA               NA     
##      HDL-Cholesterol IP    K  LDL-Cholesterol Na Total Calcium
## [1,] NA              "4.3" NA NA              NA NA           
## [2,] NA              NA    NA NA              NA NA           
## [3,] NA              NA    NA NA              NA NA           
## [4,] NA              NA    NA NA              NA NA           
## [5,] NA              NA    NA NA              NA NA           
## [6,] NA              NA    NA NA              NA NA           
##      Total Cholesterol Triglyceride Triglycerol Fluid Uric Acid
## [1,] NA                NA           NA                NA       
## [2,] NA                NA           NA                NA       
## [3,] NA                NA           NA                NA       
## [4,] NA                NA           NA                NA       
## [5,] NA                NA           NA                NA       
## [6,] NA                NA           NA                NA       
##      urine Calcium urine Phosphorus urine Potassium urine Sodium
## [1,] NA            NA               NA              NA          
## [2,] NA            NA               NA              NA          
## [3,] NA            NA               NA              NA          
## [4,] NA            NA               NA              NA          
## [5,] NA            NA               NA              NA          
## [6,] NA            NA               NA              NA          
##      urine Uric Acid
## [1,] NA             
## [2,] NA             
## [3,] NA             
## [4,] NA             
## [5,] NA             
## [6,] NA

第一節：資料轉換概念(6)

現在，我們可以將要對subsubdat中所做的事情打包成一個迴圈如下，這樣第一個時間點就完成了

subsubdat #先看看subsubdat裡面有哪些

##      PATNUMBER         COLLECTIONDATE      TESTNAME RESVALUE
## 3993       175 2011/10/1 上午 8:24:00            IP      4.3
## 3994       175 2011/10/1 上午 8:24:00 Total Calcium      7.3
## 3995       175 2011/10/1 上午 8:24:00    Creatinine      3.7
## 3996       175 2011/10/1 上午 8:24:00            Na    138.0

for (k in 1:nrow(subsubdat)) {
  NAME = subsubdat[k,3]
  position = which(NAME == levels.TESTNAME) + 2
  submatrix[j, position] = subsubdat[k,4]
}
head(submatrix)

##      PATNUMBER COLLECTIONDATE            Albumin Albumin body fluid AST
## [1,] "175"     "2011/10/1 上午 8:24:00"  NA      NA                 NA 
## [2,] "175"     "2011/10/5 下午 4:46:00"  NA      NA                 NA 
## [3,] "175"     "2011/10/6 上午 9:01:00"  NA      NA                 NA 
## [4,] "175"     "2011/10/8 上午 6:42:00"  NA      NA                 NA 
## [5,] "175"     "2011/11/10 上午 9:01:00" NA      NA                 NA 
## [6,] "175"     "2011/11/10 下午 1:25:00" NA      NA                 NA 
##      BUN BUN Fluid Cholesterol Fluid Creatinine Creatinine Fluid GLU(AC)
## [1,] NA  NA        NA                "3.7"      NA               NA     
## [2,] NA  NA        NA                NA         NA               NA     
## [3,] NA  NA        NA                NA         NA               NA     
## [4,] NA  NA        NA                NA         NA               NA     
## [5,] NA  NA        NA                NA         NA               NA     
## [6,] NA  NA        NA                NA         NA               NA     
##      HDL-Cholesterol IP    K  LDL-Cholesterol Na    Total Calcium
## [1,] NA              "4.3" NA NA              "138" "7.3"        
## [2,] NA              NA    NA NA              NA    NA           
## [3,] NA              NA    NA NA              NA    NA           
## [4,] NA              NA    NA NA              NA    NA           
## [5,] NA              NA    NA NA              NA    NA           
## [6,] NA              NA    NA NA              NA    NA           
##      Total Cholesterol Triglyceride Triglycerol Fluid Uric Acid
## [1,] NA                NA           NA                NA       
## [2,] NA                NA           NA                NA       
## [3,] NA                NA           NA                NA       
## [4,] NA                NA           NA                NA       
## [5,] NA                NA           NA                NA       
## [6,] NA                NA           NA                NA       
##      urine Calcium urine Phosphorus urine Potassium urine Sodium
## [1,] NA            NA               NA              NA          
## [2,] NA            NA               NA              NA          
## [3,] NA            NA               NA              NA          
## [4,] NA            NA               NA              NA          
## [5,] NA            NA               NA              NA          
## [6,] NA            NA               NA              NA          
##      urine Uric Acid
## [1,] NA             
## [2,] NA             
## [3,] NA             
## [4,] NA             
## [5,] NA             
## [6,] NA

第一節：資料轉換概念(7)

由於這是一個人中一個時間點的迴圈，我們可以把一整個迴圈打包在另一個迴圈之下

for (j in 1:n.COLLECTIONDATE) {
  subsubdat = subdat[subdat[,2]==levels.COLLECTIONDATE[j],]
  for (k in 1:nrow(subsubdat)) {
    NAME = subsubdat[k,3]
    position = which(NAME == levels.TESTNAME) + 2
    submatrix[j, position] = subsubdat[k,4]
  }
}

head(submatrix)

##      PATNUMBER COLLECTIONDATE            Albumin Albumin body fluid AST
## [1,] "175"     "2011/10/1 上午 8:24:00"  NA      NA                 NA 
## [2,] "175"     "2011/10/5 下午 4:46:00"  NA      NA                 NA 
## [3,] "175"     "2011/10/6 上午 9:01:00"  NA      NA                 NA 
## [4,] "175"     "2011/10/8 上午 6:42:00"  NA      NA                 NA 
## [5,] "175"     "2011/11/10 上午 9:01:00" NA      NA                 NA 
## [6,] "175"     "2011/11/10 下午 1:25:00" NA      NA                 NA 
##      BUN BUN Fluid Cholesterol Fluid Creatinine Creatinine Fluid GLU(AC)
## [1,] NA  NA        NA                "3.7"      NA               NA     
## [2,] NA  NA        NA                "3.2"      NA               NA     
## [3,] NA  NA        NA                NA         NA               NA     
## [4,] NA  NA        NA                "3.4"      NA               NA     
## [5,] NA  NA        NA                NA         NA               NA     
## [6,] NA  NA        NA                NA         NA               NA     
##      HDL-Cholesterol IP    K  LDL-Cholesterol Na    Total Calcium
## [1,] NA              "4.3" NA NA              "138" "7.3"        
## [2,] NA              NA    NA NA              "139" NA           
## [3,] NA              "4.5" NA NA              NA    "7.8"        
## [4,] NA              NA    NA NA              NA    NA           
## [5,] NA              "4.5" NA NA              NA    "7.3"        
## [6,] NA              NA    NA NA              NA    NA           
##      Total Cholesterol Triglyceride Triglycerol Fluid Uric Acid
## [1,] NA                NA           NA                NA       
## [2,] NA                NA           NA                NA       
## [3,] "342"             "335"        NA                NA       
## [4,] NA                NA           NA                NA       
## [5,] "342"             "326"        NA                NA       
## [6,] NA                NA           NA                NA       
##      urine Calcium urine Phosphorus urine Potassium urine Sodium
## [1,] NA            NA               NA              NA          
## [2,] NA            NA               NA              NA          
## [3,] NA            NA               NA              NA          
## [4,] NA            NA               NA              NA          
## [5,] NA            NA               NA              NA          
## [6,] "0.6"         "28.3"           "39.1"          "48"        
##      urine Uric Acid
## [1,] NA             
## [2,] NA             
## [3,] NA             
## [4,] NA             
## [5,] NA             
## [6,] NA

第一節：資料轉換概念(8)

現在我們整理一下對於第一個人所使用到的所有程式碼，接著我們即將要讓電腦重複10次(因為有10個人)

– 下列這串程式碼可以獲得一個完整的submatrix

i = 1

subdat = dat[dat[,1]==levels.PATNUMBER[i],]
subdat[,2] = as.factor(as.character(subdat[,2]))
levels.COLLECTIONDATE = levels(subdat[,2])
n.COLLECTIONDATE = length(levels.COLLECTIONDATE)
n.COLLECTIONDATE

submatrix = matrix(NA, nrow = n.COLLECTIONDATE, ncol = n.TESTNAME+2)
colnames(submatrix) = c("PATNUMBER", "COLLECTIONDATE", levels.TESTNAME)

submatrix[,1] = levels.PATNUMBER[i]
submatrix[,2] = levels.COLLECTIONDATE

for (j in 1:n.COLLECTIONDATE) {
  subsubdat = subdat[subdat[,2]==levels.COLLECTIONDATE[j],]
  for (k in 1:nrow(subsubdat)) {
    NAME = subsubdat[k,3]
    position = which(NAME == levels.TESTNAME) + 2
    submatrix[j, position] = subsubdat[k,4]
  }
}

然而，我們必須要把submatrix寫出到完整的大表，否則i只要一改變，將會重新建立一個新的submatrix，我們可以透過函數「rbind()」完成，但在最開始的時候甚麼東西都沒有，所以我們要先令一個東西起始為NULL，然後這個東西會隨著迴圈不斷地長大

final.data = NULL
final.data

## NULL

final.data = rbind(final.data, submatrix)
head(final.data)

##      PATNUMBER COLLECTIONDATE            Albumin Albumin body fluid AST
## [1,] "175"     "2011/10/1 上午 8:24:00"  NA      NA                 NA 
## [2,] "175"     "2011/10/5 下午 4:46:00"  NA      NA                 NA 
## [3,] "175"     "2011/10/6 上午 9:01:00"  NA      NA                 NA 
## [4,] "175"     "2011/10/8 上午 6:42:00"  NA      NA                 NA 
## [5,] "175"     "2011/11/10 上午 9:01:00" NA      NA                 NA 
## [6,] "175"     "2011/11/10 下午 1:25:00" NA      NA                 NA 
##      BUN BUN Fluid Cholesterol Fluid Creatinine Creatinine Fluid GLU(AC)
## [1,] NA  NA        NA                "3.7"      NA               NA     
## [2,] NA  NA        NA                "3.2"      NA               NA     
## [3,] NA  NA        NA                NA         NA               NA     
## [4,] NA  NA        NA                "3.4"      NA               NA     
## [5,] NA  NA        NA                NA         NA               NA     
## [6,] NA  NA        NA                NA         NA               NA     
##      HDL-Cholesterol IP    K  LDL-Cholesterol Na    Total Calcium
## [1,] NA              "4.3" NA NA              "138" "7.3"        
## [2,] NA              NA    NA NA              "139" NA           
## [3,] NA              "4.5" NA NA              NA    "7.8"        
## [4,] NA              NA    NA NA              NA    NA           
## [5,] NA              "4.5" NA NA              NA    "7.3"        
## [6,] NA              NA    NA NA              NA    NA           
##      Total Cholesterol Triglyceride Triglycerol Fluid Uric Acid
## [1,] NA                NA           NA                NA       
## [2,] NA                NA           NA                NA       
## [3,] "342"             "335"        NA                NA       
## [4,] NA                NA           NA                NA       
## [5,] "342"             "326"        NA                NA       
## [6,] NA                NA           NA                NA       
##      urine Calcium urine Phosphorus urine Potassium urine Sodium
## [1,] NA            NA               NA              NA          
## [2,] NA            NA               NA              NA          
## [3,] NA            NA               NA              NA          
## [4,] NA            NA               NA              NA          
## [5,] NA            NA               NA              NA          
## [6,] "0.6"         "28.3"           "39.1"          "48"        
##      urine Uric Acid
## [1,] NA             
## [2,] NA             
## [3,] NA             
## [4,] NA             
## [5,] NA             
## [6,] NA

第一節：資料轉換概念(9)

完整的程式碼如下，各位同學能夠自己試試。

levels.TESTNAME = levels(dat[,3])
n.TESTNAME = length(levels.TESTNAME)
levels.PATNUMBER = levels(as.factor(dat[,1]))
n.PATNUMBER = length(levels.PATNUMBER)

final.data = NULL

for (i in 1:n.PATNUMBER) {
  subdat = dat[dat[,1]==levels.PATNUMBER[i],]
  subdat[,2] = as.factor(as.character(subdat[,2]))
  levels.COLLECTIONDATE = levels(subdat[,2])
  n.COLLECTIONDATE = length(levels.COLLECTIONDATE)

  submatrix = matrix(NA, nrow = n.COLLECTIONDATE, ncol = n.TESTNAME+2)
  colnames(submatrix) = c("PATNUMBER", "COLLECTIONDATE", levels.TESTNAME)

  submatrix[,1] = levels.PATNUMBER[i]
  submatrix[,2] = levels.COLLECTIONDATE

  for (j in 1:n.COLLECTIONDATE) {
    subsubdat = subdat[subdat[,2]==levels.COLLECTIONDATE[j],]
    for (k in 1:nrow(subsubdat)) {
      NAME = subsubdat[k,3]
      position = which(NAME == levels.TESTNAME) + 2
      submatrix[j, position] = subsubdat[k,4]
    }
  }
  
  final.data = rbind(final.data, submatrix)
}

head(final.data)

還記得怎樣寫出檔案嗎？可以使用函數「write.csv」，試試看吧！

練習1：更大的檔案

學會了上述過程之後，我們將其應用在原始的大檔案之中，請在這裡下載一份資料。

– 這次，除了檔案更大以外，檔案的最後還有參考值。如果你的值位於參考值內，那就是正常，否則則是過高。

– 我們這次不要填數值，而是填入正常（TRUE）或異常（FALSE）！

這個檔案其實跟之前的類似，但欄位有些不同，記得修正部分語法！

dat = read.csv("data3_4.csv", header = TRUE, fileEncoding = 'CP950')
head(dat, 10)

##    PATNUMBER SEX          COLLECTIONDATE          TESTNAME RESVALUE  UNITS
## 1        180   1 2011/12/11 上午 5:10:00                Na    131.0 mmol/L
## 2        589   1 2011/12/11 上午 6:37:00        Creatinine      3.8  mg/dL
## 3        589   1 2011/12/11 上午 6:37:00                Na    138.0 mmol/L
## 4       1015   1 2011/12/12 上午 7:38:00 Total Cholesterol    158.0  mg/dL
## 5       1015   1 2011/12/12 上午 7:38:00        Creatinine      1.5  mg/dL
## 6       1015   1 2011/12/12 上午 7:38:00      Triglyceride    140.0  mg/dL
## 7       1015   1 2011/12/12 上午 7:38:00                Na    143.0 mmol/L
## 8        480   2 2011/12/12 上午 7:41:00      Triglyceride    153.0  mg/dL
## 9        480   2 2011/12/12 上午 7:41:00                Na    139.0 mmol/L
## 10       480   2 2011/12/12 上午 7:41:00 Total Cholesterol    211.0  mg/dL
##    MINIMUM MAXIMUM
## 1    136.0   145.0
## 2      0.7     1.2
## 3    136.0   145.0
## 4       NA   200.0
## 5      0.7     1.2
## 6       NA   200.0
## 7    136.0   145.0
## 8       NA   200.0
## 9    136.0   145.0
## 10      NA   200.0

另外，現在大家開始面臨到極長的迴圈，為了掌握迴圈進度，其實我們可以在迴圈內增加進度條函數，分別是函數「txtProgressBar()」以及函數「setTxtProgressBar()」

– 函數「Sys.sleep()」是讓系統休息，你不需要將他加入你的迴圈內

n = 100
pb = txtProgressBar(max = n, style=3)
for(i in 1:n) {
  Sys.sleep(0.1)
  setTxtProgressBar(pb, i)
}
close(pb)

練習1答案

注意欄位的不同，有些索引要改！比較好的方式是改成英文名字：

levels.TESTNAME = levels(dat[,'TESTNAME'])
n.TESTNAME = length(levels.TESTNAME)
levels.PATNUMBER = levels(as.factor(dat[,'PATNUMBER']))
n.PATNUMBER = length(levels.PATNUMBER)

final.data = NULL

pb = txtProgressBar(max = n.PATNUMBER, style=3)

for (i in 1:n.PATNUMBER) {
  subdat = dat[dat[,'PATNUMBER']==levels.PATNUMBER[i],]
  subdat[,'COLLECTIONDATE'] = as.factor(as.character(subdat[,'COLLECTIONDATE']))
  levels.COLLECTIONDATE = levels(subdat[,'COLLECTIONDATE'])
  n.COLLECTIONDATE = length(levels.COLLECTIONDATE)

  submatrix = matrix(NA, nrow = n.COLLECTIONDATE, ncol = n.TESTNAME+2)
  colnames(submatrix) = c("PATNUMBER", "COLLECTIONDATE", levels.TESTNAME)

  submatrix[,1] = levels.PATNUMBER[i]
  submatrix[,2] = levels.COLLECTIONDATE

  for (j in 1:n.COLLECTIONDATE) {
    subsubdat = subdat[subdat[,'COLLECTIONDATE']==levels.COLLECTIONDATE[j],]
    for (k in 1:nrow(subsubdat)) {
      NAME = subsubdat[k,'TESTNAME']
      position = which(NAME == levels.TESTNAME) + 2
      VALUE = subsubdat[k,'RESVALUE']
      MINIMUM = subsubdat[k,'MINIMUM']
      MAXIMUM = subsubdat[k,'MAXIMUM']
      if (is.na(MINIMUM)) {MINIMUM = -Inf}
      if (is.na(MAXIMUM)) {MAXIMUM = Inf}
      submatrix[j, position] = (VALUE >= MINIMUM & VALUE <= MAXIMUM)
    }
  }
  
  final.data = rbind(final.data, submatrix)
  
  setTxtProgressBar(pb, i)
  
}

close(pb)

head(final.data)

第二節：列表(List)層物件基本介紹(1)

到目前為止，我們並不十分注意任務消耗時間，但你應該發現上一個任務所消耗的時間非常的誇張，我們似乎沒有甚麼好方法解決這個問題

– 如果你有注意到的話，迴圈運行速度其實是越來越慢，這個問題其實是出在我們的函數「rbind」，這個函數雖然能夠方便的把兩個資料表合併成一個，但他的過程其實對記憶體很不友善的！

為了解決這個問題，讓我們先學一個新的物件格式：列表

– 列表(List)層分為列表(list)、S3物件(S3 class)及S4物件(S4 class)：

列表(list)：在R裡面，向量的上層是陣列層物件。若是我們希望在一個物件內放置很多陣列層物件，我們會用到列表。値得一提的是，列表裡面可以同時包含數個陣列層物件及變數層物件。
S3物件(S3 class)：S3物件是一種特殊的列表物件，他的變化會在後面慢慢介紹。
S4物件(S4 class)：S4物件與前面兩種有非常大的不同，相關的函數也不一樣，在本節課我們不會教到。

我們首先介紹列表(list)物件

# 先產生一個數値矩陣物件
x1 = 1:20
M1 = matrix(x1, nrow = 4, ncol = 5)
M1

##      [,1] [,2] [,3] [,4] [,5]
## [1,]    1    5    9   13   17
## [2,]    2    6   10   14   18
## [3,]    3    7   11   15   19
## [4,]    4    8   12   16   20

# 再產生一個文字矩陣物件
x2 = c("A", "B", "C", "A", "C", "B", "B", "B", "A")
M2 = matrix(x2, nrow = 3, ncol = 3)
M2

##      [,1] [,2] [,3]
## [1,] "A"  "A"  "B" 
## [2,] "B"  "C"  "B" 
## [3,] "C"  "B"  "A"

# 再產生一個邏輯向量
x3 = c(TRUE, FALSE, TRUE, FALSE)
x3

## [1]  TRUE FALSE  TRUE FALSE

# 將上述這些物件打包成一個列表物件
L1 = list(M1, M2, x3)
L1

## [[1]]
##      [,1] [,2] [,3] [,4] [,5]
## [1,]    1    5    9   13   17
## [2,]    2    6   10   14   18
## [3,]    3    7   11   15   19
## [4,]    4    8   12   16   20
## 
## [[2]]
##      [,1] [,2] [,3]
## [1,] "A"  "A"  "B" 
## [2,] "B"  "C"  "B" 
## [3,] "C"  "B"  "A" 
## 
## [[3]]
## [1]  TRUE FALSE  TRUE FALSE

第二節：列表(List)層物件基本介紹(2)

列表(List)層物件中有幾個重要的函數來描述它的基本資料：

函數「length()」可以協助我們了解物件長度
函數「class()」可以查詢該物件的屬性
函數「names()」可以協助我們命名物件
函數「ls()」可以協助我們看看物件中有哪些東西

length(L1)

## [1] 3

class(L1)

## [1] "list"

names(L1) = c("A", "B", "C")
L1

## $A
##      [,1] [,2] [,3] [,4] [,5]
## [1,]    1    5    9   13   17
## [2,]    2    6   10   14   18
## [3,]    3    7   11   15   19
## [4,]    4    8   12   16   20
## 
## $B
##      [,1] [,2] [,3]
## [1,] "A"  "A"  "B" 
## [2,] "B"  "C"  "B" 
## [3,] "C"  "B"  "A" 
## 
## $C
## [1]  TRUE FALSE  TRUE FALSE

ls(L1)

## [1] "A" "B" "C"

第二節：列表(List)層物件基本介紹(3)

在R裡面所有的索引函數都由中括號形成，列表(List)層物件中的索引函數是使用[[]]，我們直接在中括號內填入數字就好。另外，索引函數「$」一樣能用在陣列層的物件

L1[[2]]

##      [,1] [,2] [,3]
## [1,] "A"  "A"  "B" 
## [2,] "B"  "C"  "B" 
## [3,] "C"  "B"  "A"

L1[["B"]]

##      [,1] [,2] [,3]
## [1,] "A"  "A"  "B" 
## [2,] "B"  "C"  "B" 
## [3,] "C"  "B"  "A"

L1$B

##      [,1] [,2] [,3]
## [1,] "A"  "A"  "B" 
## [2,] "B"  "C"  "B" 
## [3,] "C"  "B"  "A"

如果我們想要進一步再找藏在L1裡面的B裡面的元素，我們可以繼續使用索引函數

L1[[2]][2,3]

## [1] "B"

L1[["B"]][3,1]

## [1] "C"

L1$B[1,2]

## [1] "A"

第二節：列表(List)層物件基本介紹(4)

經過了上述的示範後，我們了解到列表(list)是一個很方便的物件，它可以把很多很雜的東西丟在同個物件內。但東西多了以後會遇到問題，那就是該列表物件會變的非常非常大，但也許我們想要呈現的東西是很有限的，在R裡面，列表有一種擴展型態叫做S3物件(S3 class)，它可以解決這個問題。
S3物件(S3 class)的產生方式如下

#先看看L1的樣子
L1

## $A
##      [,1] [,2] [,3] [,4] [,5]
## [1,]    1    5    9   13   17
## [2,]    2    6   10   14   18
## [3,]    3    7   11   15   19
## [4,]    4    8   12   16   20
## 
## $B
##      [,1] [,2] [,3]
## [1,] "A"  "A"  "B" 
## [2,] "B"  "C"  "B" 
## [3,] "C"  "B"  "A" 
## 
## $C
## [1]  TRUE FALSE  TRUE FALSE

#先看看L1的物件屬性
class(L1)

## [1] "list"

#強迫L1成為別的物件屬性
class(L1) = "test"
#再看看L1的物件屬性
class(L1)

## [1] "test"

#看看L1現在的樣子
L1

## $A
##      [,1] [,2] [,3] [,4] [,5]
## [1,]    1    5    9   13   17
## [2,]    2    6   10   14   18
## [3,]    3    7   11   15   19
## [4,]    4    8   12   16   20
## 
## $B
##      [,1] [,2] [,3]
## [1,] "A"  "A"  "B" 
## [2,] "B"  "C"  "B" 
## [3,] "C"  "B"  "A" 
## 
## $C
## [1]  TRUE FALSE  TRUE FALSE
## 
## attr(,"class")
## [1] "test"

– 小提示：當你使用函數「class()」可以查詢該物件的屬性，若非常見的幾種屬性名稱，那就非常有可能是S3物件(S3 class)或S4物件(S4 class)

第二節：列表(List)層物件基本介紹(5)

轉變為S3物件(S3 class)後，我們可以透過自訂函數「print.XXX()」、自訂函數「summary.XXX()」等函數來讓R知道要如何呈現這個S3物件

#先寫一個自訂函數「print.test()」
print.test = function(test) {
  cat("此列表共有",length(test),"個物件\n")
  cat("物件名稱分別為：\n")
  cat(paste(names(test), collapse = ", "), "\n")
}

#再看看請R列印出L1會變什麼
L1

## 此列表共有 3 個物件
## 物件名稱分別為：
## A, B, C

– 列表(list)的幾個常見函數還是能夠使用：

ls(L1)

## [1] "A" "B" "C"

length(L1)

## [1] 3

class(L1)

## [1] "test"

names(L1) = c("D", "E", "F")
L1

## 此列表共有 3 個物件
## 物件名稱分別為：
## D, E, F

第二節：列表(List)層物件基本介紹(6)

接著我們還能寫自訂函數「summary.XXX()」來呈現更詳細的資料

– 在寫之前我們先看看直接對L1使用函數「summary()」會怎樣

summary(L1)

##   Length Class  Mode     
## D 20     -none- numeric  
## E  9     -none- character
## F  4     -none- logical

– 現在我們可以讓函數「summary()」使用後產生不同的結果

#先寫一個自訂函數「summary.test()」
summary.test = function(test) {
  cat("此列表共有",length(test),"個物件\n")
  cat("物件名稱分別為：\n")
  cat(paste(names(test), collapse = ", "), "\n")
  for (i in 1:length(test)) {
    cat(names(test)[i], "之物件屬性為", class(test[[i]]), "\n")
  }
}

#再看看使用函數「summary()」後會變什麼
summary(L1)

## 此列表共有 3 個物件
## 物件名稱分別為：
## D, E, F 
## D 之物件屬性為 matrix 
## E 之物件屬性為 matrix 
## F 之物件屬性為 logical

練習2：善用S3物件格式

我們已經學會如何將想要的資訊放在列表(list)物件中，並透過將這個物件轉換為一個特定的S3物件(S3 class) 後，就可以透過自訂函數「print.XXX()」呈現想要的結果。
我們現在希望能把這個列表轉為S3物件，並且讓他的輸出改為這種格式：

Test_list = list(student = c('小明', '小華', '小愛'),
                 score = c(80, 90, 75))

Test_list

## $student
## [1] "小明" "小華" "小愛"
## 
## $score
## [1] 80 90 75

假設你學會了編寫S3物件，那直接打出Test_list將會出現下列描述：

Test_list

## 小明 的分數為 80 
## 小華 的分數為 90 
## 小愛 的分數為 75

試著完成任務吧！

練習2答案

S3物件的關鍵在於：

指定一個物件名稱
編寫特定的「print」函數

Test_list = list(student = c('小明', '小華', '小愛'),
                 score = c(80, 90, 75))

class(Test_list) = 'My_list'

print.My_list = function(Test_list) {
  for (i in 1:length(Test_list[[1]])) {
    cat(Test_list[[1]][i], "的分數為", Test_list[[2]][i], "\n")
  }
}

Test_list

## 小明 的分數為 80 
## 小華 的分數為 90 
## 小愛 的分數為 75

第三節：用列表特性加速任務(1)

上一節我們有發現了函數「rbind」對記憶體很不友善的！

– 讓我們做個小測試，假設我們不斷的將一個完全相同的資料表用rbind指令合併，和先使用列表儲存，看看時間差異有多大：

– 這是連續合併1000次的耗時：

t0 = Sys.time()

base_dat = data.frame(X = rnorm(20), Y = rnorm(20))
final_dat = NULL

for (i in 1:1000) {
  
  final_dat = rbind(final_dat, base_dat)
  
}

Sys.time() - t0 #用現在時間減去開始時間

## Time difference of 0.3139393 secs

– 這是連續合併2000次的耗時：

t0 = Sys.time()

base_dat = data.frame(X = rnorm(20), Y = rnorm(20))
final_dat = NULL

for (i in 1:2000) {
  
  final_dat = rbind(final_dat, base_dat)
  
}

Sys.time() - t0 #用現在時間減去開始時間

## Time difference of 1.036624 secs

– 這是連續合併4000次的耗時：

t0 = Sys.time()

base_dat = data.frame(X = rnorm(20), Y = rnorm(20))
final_dat = NULL

for (i in 1:4000) {
  
  final_dat = rbind(final_dat, base_dat)
  
}

Sys.time() - t0 #用現在時間減去開始時間

## Time difference of 3.934517 secs

你似乎發現了一件事情，耗時似乎並非線性成長。

第三節：用列表特性加速任務(2)

讓我們用列表來解決這個問題吧！